Text-driven person image generation is an emerging and challenging task in cross-modality image generation. Controllable person image generation promotes a wide range of applications such as digital human interaction and virtual try-on. However, previous methods mostly employ single-modality information as the prior condition (e.g. pose-guided person image generation), or utilize the preset words for text-driven human synthesis. Introducing a sentence composed of free words with an editable semantic pose map to describe person appearance is a more user-friendly way. In this paper, we propose HumanDiffusion, a coarse-to-fine alignment diffusion framework, for text-driven person image generation. Specifically, two collaborative modules are proposed, the Stylized Memory Retrieval (SMR) module for fine-grained feature distillation in data processing and the Multi-scale Cross-modality Alignment (MCA) module for coarse-to-fine feature alignment in diffusion. These two modules guarantee the alignment quality of the text and image, from image-level to feature-level, from low-resolution to high-resolution. As a result, HumanDiffusion realizes open-vocabulary person image generation with desired semantic poses. Extensive experiments conducted on DeepFashion demonstrate the superiority of our method compared with previous approaches. Moreover, better results could be obtained for complicated person images with various details and uncommon poses.
translated by 谷歌翻译
有效的医疗图像细分旨在通过轻量级实施框架为医学图像提供准确的像素预测。然而,轻量级框架通常无法实现高性能,并且遭受了跨域任务的可概括能力。在本文中,我们提出了一种可推广的知识蒸馏方法,用于良好,有效地分割跨域医学图像。主要是,我们提出了模型特异性的对准网络(MSAN),以提供由预训练的语义自动编码器(P-SAE)正规化的域不变表示。同时,定制的一致性培训(ACT)策略旨在促进MSAN培训。在MSAN中的域不变代表矢量中,我们提出了两个可推广的知识蒸馏方案,双对比度图蒸馏(DCGD)和域不变的交叉蒸馏(DICD)。具体而言,在DCGD中,设计了两种类型的隐式对比图,以从数据分布的角度来表示耦合和耦合语义相关性。在DICD中,来自MSAN的标题交换将两个模型(即教师和学生)的域语义向量(即教师和学生)借给了跨重建功能,这可以在学生模型中实现编码器和解码器的可推广改进。此外,定制了一个名为FR \'Echet语义距离(FSD)的度量,以验证正则化域不变特征的有效性。在肝和视网膜血管分割数据集上进行的广泛实验证明了我们方法的优先级,就轻量级框架的性能和概括而言。
translated by 谷歌翻译
随着深度卷积神经网络的发展,近年来,医学图像分割取得了一系列突破。但是,高性能卷积神经网络总是意味着许多参数和高计算成本,这将阻碍在临床情况下的应用。同时,大规模注释的医学图像数据集的稀缺性进一步阻碍了高性能网络的应用。为了解决这些问题,我们提出了图形流,即一个全面的知识蒸馏框架,以用于网络效率和注释效率的医学图像分割。具体而言,我们的核心图流动蒸馏将跨层变化的本质从训练有素的繁琐教师网络转移到未经训练的紧凑型学生网络。此外,无监督的解释器模块被整合在一起以净化教师网络的知识,这也对训练程序的稳定也有益。此外,我们通过集成对抗性蒸馏和香草逻辑蒸馏来构建一个统一的蒸馏框架,这可以进一步完善紧凑网络的最终预测。通过不同的教师网络(常规的卷积架构或普遍的变压器体系结构)和学生网络,我们在四个具有不同模态的医学图像数据集(胃癌,Synapse,Busi和CVC-ClinicdB)上进行了广泛的实验。我们证明了我们的重要能力在这些数据集上实现竞争性能的方法。此外,我们证明了图形通过新型半监督范式进行双重有效医学图像分割的有效性。我们的代码将在图流量下可用。
translated by 谷歌翻译
面部草图合成已被广泛用于多媒体娱乐和执法。尽管深度神经网络最近发生了进展,但由于人脸的多样性和复杂性,准确而现实的面孔素描合成仍然是一项艰巨的任务。当前基于图像到图像翻译的面孔草图合成在小型数据集时通常会遇到过度拟合的问题。为了解决此问题,我们提出了面部绘制的端到端以内存的样式转移网络(最多)的范围,该网络(最多)可以产生具有有限数据的高保真草图。具体而言,引入了外部自我监督的动态内存模块,以捕获域对准知识。这样,我们提出的模型可以通过在特征级别上建立面部和相应草图之间的耐用关系来获得域转移能力。此外,我们为记忆模块中的特征比对设计了一种新颖的记忆细化损失(MR损失),该功能对齐可增强记忆插槽的准确性。在CUFS和CUFSF数据集上进行了广泛的实验表明,我们最网络可以实现最先进的性能,尤其是在结构相似性指数(SSIM)方面。
translated by 谷歌翻译
近年来,双相面孔皮草草图合成的显着进展随着生成的对抗性网络(GAN)的发展。双相面孔光学素材合成可以应用于数字娱乐和执法等宽范围的领域。然而,由于实际场景中的草图和复杂的照片变化,产生现实照片和不同的草图遭受了极大的挑战。为此,我们提出了一种新颖的语义驱动生成的对抗网络来解决上述问题,与图形表示学习合作。具体而言,我们将Class-Wise语义布局注入发电机以提供基于样式的空间监督,用于合成面部照片和草图。此外,为了提高生成的结果的保真度,我们利用语义布局来构造两种类型的代表性图,该图表示综合图像的类内语义特征和级别的结构特征。此外,我们基于所提出的代表性图设计了两种类型的约束,其便于保存生成的面部照片和草图中的细节。此外,为了进一步增强合成图像的感知质量,我们提出了一种新的双相培训策略,致力于通过迭代周期培训来细化所产生的结果。在CUFS和CUFSF数据集上进行了广泛的实验,以证明我们提出的方法实现了最先进的性能的突出能力。
translated by 谷歌翻译
人物图像的旨在在源图像上执行非刚性变形,这通常需要未对准数据对进行培训。最近,自我监督的方法通过合并自我重建的解除印章表达来表达这项任务的巨大前景。然而,这些方法未能利用解除戒断功能之间的空间相关性。在本文中,我们提出了一种自我监督的相关挖掘网络(SCM-NET)来重新排列特征空间中的源图像,其中两种协作模块是集成的,分解的样式编码器(DSE)和相关挖掘模块(CMM)。具体地,DSE首先在特征级别创建未对齐的对。然后,CMM建立用于特征重新排列的空间相关领域。最终,翻译模块将重新排列的功能转换为逼真的结果。同时,为了提高跨尺度姿态变换的保真度,我们提出了一种基于曲线图的体结构保持损失(BSR损耗),以保持半体上的合理的身体结构到全身。与Deepfashion DataSet进行的广泛实验表明了与其他监督和无监督和无监督的方法相比的方法的优势。此外,对面部的令人满意的结果显示了我们在其他变形任务中的方法的多功能性。
translated by 谷歌翻译
虹膜分割是虹膜识别系统的确定性部分。虹膜区的不可靠细分,特别是肢体区域仍然是瓶颈问题,这阻碍了更准确的识别。为了进一步努力,通过探索空间和视觉关系,我们提出了一种准确可靠的虹膜细分,我们提出了双边自我关注模块和设计双边变压器(Bitrans),通过探索空间和视觉关系。双边自我注意模块采用空间分支,以捕获空间上下文信息,而无需分辨率,具有大容器的视觉分支,以提取视觉上下文特征。 Bitrans积极应用卷积预测和横向,以改善空间感知和分层特征融合。此外,开发了虹膜分割不确定性学习,以根据预测差异来学习不确定性地图。通过估计的不确定性,旨在减少预测性不确定性的加权方案和正则化术语。更重要的是,不确定性估计反映了分割预测的可靠性。三个公开数据库的实验结果表明,拟议的方法使用SOTA IRISPARSENET的20%拖鞋实现了更好的分割性能。
translated by 谷歌翻译
近年来,深度卷积神经网络在病理学图像分割方面取得了重大进展。然而,病理图像分割遇到困境,其中更高绩效网络通常需要更多的计算资源和存储。由于病理图像的固有高分辨率,这种现象限制了实际场景中的高精度网络的就业。为了解决这个问题,我们提出了一种用于病理胃癌细分的新型跨层相关(COCO)知识蒸馏网络。知识蒸馏,通过从繁琐的网络从知识转移提高紧凑型网络的性能的一般技术。具体而言,我们的Coco Distillnet模拟了不同层之间的通道混合空间相似性的相关性,然后将这些知识从预培训的繁琐的教师网络传送到非培训的紧凑学生网络。此外,我们还利用了对抗性学习策略来进一步提示被称为对抗性蒸馏(AD)的蒸馏程序。此外,为了稳定我们的培训程序,我们利用无监督的释义模块(PM)来提高教师网络中的知识释义。结果,对胃癌细分数据集进行的广泛实验表明了Coco Distillnet的突出能力,实现了最先进的性能。
translated by 谷歌翻译
3D到2D视网膜血管分割是光学相干断层造影血管造影(OctA)图像中有挑战性的问题。准确的视网膜血管分割对于眼科疾病的诊断和预防是重要的。然而,充分利用Octa卷的3D数据是获得令人满意的分割结果的重要因素。在本文中,我们基于提取富有特征表示提取的注意机制,提出了一种渐进的关注增强网络(PAENET)。具体地,框架包括两个主要部分,三维特征学习路径和二维分割路径。在三维特征学习路径中,我们设计了一种新型自适应池模块(APM),并提出了一种新的四倍注意模块(QAM)。 APM沿着卷的投影方向捕获依赖关系,并学习一系列用于特征融合的池系数,从而有效地减少了特征尺寸。此外,QAM通过捕获四组交叉尺寸依赖性来重新重复该特征,这使得最大限度地使用4D特征张力。在二维分割路径中,为了获取更详细的信息,我们提出了一个特征融合模块(FFM)来将3D信息注入2D路径。同时,我们采用极化的自我关注(PSA)块分别在空间和通道尺寸中模拟语义相互依赖性。在实验上,我们在Octa-500数据集上进行了广泛的实验表明,与以前的方法相比,我们所提出的算法实现了最先进的性能。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译